Scikit-Learn এর Pipeline এবং make_pipeline ফাংশন

Machine Learning - সাইকিট-লার্ন (Scikit-Learn) - Pipeline এবং Model Selection
204

Pipeline এবং make_pipeline ফাংশনগুলি Scikit-Learn এর দুটি গুরুত্বপূর্ণ টুল, যা মেশিন লার্নিং কাজের জন্য প্রসেসিং এবং মডেল ট্রেনিং এর ধাপগুলিকে একত্রিত করতে সহায়ক। এগুলি আপনাকে বিভিন্ন প্রি-প্রসেসিং স্টেপ এবং মডেল একত্রিত করতে সাহায্য করে, যা কোডিং স্টেপগুলোকে সুশৃঙ্খল এবং পুনঃব্যবহারযোগ্য করে তোলে।


Pipeline কী?

Pipeline হল Scikit-Learn এর একটি টুল যা একাধিক স্টেপ (যেমন, ডেটা স্কেলিং, ফিচার এনকোডিং, মডেল ট্রেনিং) একসাথে সজ্জিত করতে সহায়ক। এটি আপনাকে একাধিক মডেলিং স্টেপগুলি সোজাসুজি একত্রিত করে পুরো প্রক্রিয়াটি একসাথে প্রশিক্ষণ, পূর্বাভাস এবং মূল্যায়ন করার সুবিধা দেয়।

এই পদ্ধতি ব্যবহার করার মাধ্যমে আপনি ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিংয়ের জন্য আলাদা আলাদা কোড না লিখে একটি ধারাবাহিক চেইন তৈরি করতে পারেন।

Pipeline এর উপকারিতা:

  1. সহজ এবং সুসংহত: একাধিক প্রক্রিয়া একত্রিত করে একটি সাধারণ API প্রদান করে।
  2. ফিচার ইঞ্জিনিয়ারিং এবং মডেল ট্রেনিং: ডেটা প্রি-প্রসেসিং স্টেপ এবং মডেল ট্রেনিংকে একত্রিত করতে সাহায্য করে।
  3. পরীক্ষা এবং মূল্যায়ন: Cross-validation বা Grid Search এর মতো কাজগুলো সহজেই করা যায়।

Pipeline এর কাজের ধাপ:

  1. ডেটা প্রি-প্রসেসিং স্টেপ (যেমন, স্কেলিং, এনকোডিং):
    ডেটার স্কেলিং বা অন্যান্য প্রি-প্রসেসিং স্টেপগুলি এখানে থাকবে। যেমন, StandardScaler বা OneHotEncoder
  2. মডেল ট্রেনিং স্টেপ:
    মডেল প্রশিক্ষণের জন্য আপনি যে মডেলটি ব্যবহার করতে চান, যেমন Logistic Regression, SVM, বা RandomForestClassifier এখানে থাকবে।
  3. ফিনিশিং স্টেপ:
    মডেলটি প্রশিক্ষণ দেওয়ার পর, আপনি fit() মেথড ব্যবহার করে মডেলটি ট্রেন করতে পারেন এবং predict() মেথড দিয়ে পূর্বাভাস নিতে পারেন।

Scikit-Learn এর Pipeline উদাহরণ:

ধরা যাক, আপনি একটি ক্লাসিফিকেশন মডেল তৈরি করছেন যেখানে আপনাকে ডেটা স্কেলিং এবং মডেল ট্রেনিং একসাথে করতে হবে।

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.datasets import load_iris

# ডেটাসেট লোড করা
iris = load_iris()
X = iris.data
y = iris.target

# ডেটা প্রশিক্ষণ এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Pipeline তৈরি করা
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # স্কেলিং
    ('classifier', RandomForestClassifier())  # ক্লাসিফায়ার
])

# মডেল প্রশিক্ষণ
pipeline.fit(X_train, y_train)

# মডেল মূল্যায়ন
score = pipeline.score(X_test, y_test)
print(f'Model accuracy: {score}')

এখানে, আমরা StandardScaler এবং RandomForestClassifier একসাথে Pipeline ব্যবহার করে যোগ করেছি। এখন আমাদের কোডটি আরও সংক্ষিপ্ত এবং সুসংহত হয়েছে, কারণ স্কেলিং এবং মডেল প্রশিক্ষণ একসাথে করা হয়েছে।


make_pipeline ফাংশন

make_pipeline হল একটি শোর্টকাট ফাংশন যা একটি পাইপলাইন তৈরি করার প্রক্রিয়া আরও সহজ করে তোলে। আপনি যখন Pipeline তৈরি করেন, তখন প্রতিটি স্টেপের জন্য একটি নাম দিতে হয়, কিন্তু make_pipeline ব্যবহার করলে এটি আপনাকে স্বয়ংক্রিয়ভাবে স্টেপগুলির নাম প্রদান করে।

make_pipeline এর উদাহরণ:

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import make_pipeline
from sklearn.datasets import load_iris

# ডেটাসেট লোড করা
iris = load_iris()
X = iris.data
y = iris.target

# ডেটা প্রশিক্ষণ এবং টেস্ট সেটে ভাগ করা
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# make_pipeline ব্যবহার করা
pipeline = make_pipeline(StandardScaler(), RandomForestClassifier())

# মডেল প্রশিক্ষণ
pipeline.fit(X_train, y_train)

# মডেল মূল্যায়ন
score = pipeline.score(X_test, y_test)
print(f'Model accuracy: {score}')

এখানে, make_pipeline ব্যবহার করার মাধ্যমে আমরা StandardScaler এবং RandomForestClassifier একসাথে পাইপলাইনে যুক্ত করেছি, এবং এটি স্বয়ংক্রিয়ভাবে স্টেপগুলির নাম নির্ধারণ করেছে।


Pipeline এবং make_pipeline এর মধ্যে পার্থক্য:

বৈশিষ্ট্যPipelinemake_pipeline
স্টেপ নামব্যবহারকারীকে স্টেপের নাম দিতে হয়।নামগুলি স্বয়ংক্রিয়ভাবে তৈরি হয়।
ব্যবহারবিশেষভাবে নামকরণ করতে চান এমন ক্ষেত্রে ব্যবহৃতকোডের সঙ্কুচিততার জন্য ব্যবহৃত।
গঠনস্টেপগুলির একটি তালিকা এবং তাদের নামগুলো নির্দিষ্ট করা হয়সরাসরি স্টেপগুলিকে পাস করা হয়, নামগুলো অটোমেটিক থাকে

সারাংশ:

  • Pipeline এবং make_pipeline দুটি গুরুত্বপূর্ণ টুল, যা একাধিক মেশিন লার্নিং স্টেপ যেমন ডেটা প্রি-প্রসেসিং এবং মডেল ট্রেনিংকে একত্রিত করতে ব্যবহৃত হয়।
  • Pipeline ব্যবহার করলে স্টেপের নাম নির্দিষ্ট করা হয়, যেখানে make_pipeline স্বয়ংক্রিয়ভাবে নাম তৈরি করে এবং কোডের সঙ্কুচিততা উন্নত করে।
  • এই দুটি ফাংশন ডেটা প্রক্রিয়াকরণ এবং মডেল ট্রেনিংয়ের কাজ সহজ এবং পরিষ্কার করে তোলে, বিশেষ করে যখন আপনি মডেল নির্বাচনের জন্য GridSearchCV বা Cross-Validation ব্যবহার করছেন।
Content added By
Promotion
NEW SATT AI এখন আপনাকে সাহায্য করতে পারে।

Are you sure to start over?

Loading...